今天我將集中於清理之前計算出的 RPKM 結果,並保存最終的基因表現數據,因為在進行生物學數據分析時,清理異常值是必不可少的步驟,這能夠幫助我確保結果的準確性。
首先我要檢查基因長度是否有異常值,例如基因長度為負數或 0 的情況。這些異常數據可能會影響 RPKM 的計算,因此需要進行清理。
# 清理基因長度異常的數據
df_rpkm_clean = df_rpkm[df_rpkm['Gene Length'] > 0]
# 檢查清理後的數據
print(df_rpkm_clean.describe())
這段 Code 會刪除所有基因長度小於等於 0 的數據,這樣可以確保所有基因的長度都是合理的接著我使用 describe()
函數來檢查清理後數據的統計訊息,確認數據的合理性。
接下來我把清理後的數據保存到一個新的 Excel 文件中:
# 保存清理後的 RPKM 數據
df_rpkm_clean.to_excel("清理後RPKM結果.xlsx", index=False)
這樣我就可以確保數據的值,也能確定分析的結果不會是雜亂無章的。